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摘要 : [目的 /意义 ] 探 究 ChatGPT 生成 与 学 者 撰写 的 中 文 论文 摘要 之 间 的 异同 ， 并 分 析 二 者 
之 间 的 内 容 特征 差异 ， 为 AI 生成 学 术 论 文 检测 及 相关 研究 提供 借鉴 。[ 方 法 /过 程 ] 首 先 ， 以 
言 息 资源 管理 领域 为 例 , 分 别 抽 取 了 图 书馆 学 、 情报 学 、 档案 学 近 三 年 各 500 篇 高 被 引 论文 ， 
基于 获取 的 论文 题目 采用 Prompt 方式 应 用 ChatGPT 工具 生成 对 应 的 摘要 文本 , 构建 数据 集 
合 ; 其 次 ， 采 用 了 9 种 机 器 学 习 及 深度 学 习 算 法 对 ChatGPT 生成 与 学 者 撰写 的 摘要 文本 进 
行 分 类 检测 ; 最 后 ， 从 文本 特征 、 主 题 模 型 、ROUGE 评测 对 二 者 的 异同 进行 多 角度 分 析 ， 
从 而 揭示 二 者 之 间 的 异同 点 。[ 结 果 / 结 论 ] 基 于 数据 集 所 训练 的 主流 机 器 学 习 及 深度 学 习 算 法 
可 以 有 效 地 分 辨 摘要 是 AI 生成 还 是 学 者 撰写 , 其 中 BERT 和 ERNIE 的 效果 最 好 ， 而 机 器 学 
习 算 法 中 RF 和 Xgboost 效果 最 好 。ChatGPT 生成 的 摘要 字符 数量 、 句 子 数量 较 学 者 撰写 的 
要 多 , 关键 词 多 为 模版 化 的 转折 性 词语 ; 两 者 的 文本 主题 大 部 分 相同 , 在 “学 科 体 系 ”、“ 数 
字 人 文 ” 等 主题 上 存在 差异 ; ROUGE 及 余弦 相似 度 定 量 分 析 表 明 ChatGPT 生成 的 摘要 与 学 
者 撰写 的 摘要 文本 存在 明显 的 “形似 ”而 非 “ 神 似 ” 的 现象 。 
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2022 年 末 ，ChatGPT 一 经 面世 就 成 为 史上 用 户 增长 速率 最 快 的 消费 级 应 用 ， 标 志 着 生 
成 式 人 工 智 能 〈Artificial Intelligence Generated Content, AIGC) 成 为 学 界 与 业界 新 的 研究 热 
点 中。 所 谓 生成 式 人 工 智能 就 是 一 种 通过 在 大 规模 语料库 中 学 习 所 生成 新 的 数据 、 文 本 、 医 
像 等 内 容 的 新 一 代 人 工 智 能 ， 其 在 自然 语言 处 理 、 图 像 生 成 、 机 器 翻译 、 语 音 生 成 、 艺 术 创 
作 等 领域 均 具 有 广泛 的 应 用 场景 ， 有 望 引 发 新 一 轮 的 科技 革命 与 产业 重 构 叫 。 

ChatGPT 作为 一 款 聊天 式 的 交互 对 话 应 用 , 代表 了 当前 AIGC 产业 化 的 最 高 水 平 ， 具 备 
e 极 强 的 自然 语言 理解 与 生成 能 力 。 可 以 根据 用 户 的 提示 信息 (Prompt) 来 理解 用 户 意图 并 生 
C) AAMAS SE). FEA WU. AKAN, FAA 89% 的 大 学 生 正 使 用 ChatGPT KE 
成 学 术 作 业 ， 这 表明 ChatGPT 已 具备 初级 科研 工作 者 的 水 准 ， 生 成 的 学 术 论 文具 有 格式 完 
整 、 逻 辑 流 畅 等 特征 四。 在 学 术 领 域 , 有 学 者 将 其 署名 为 合作 作者 , 由 此 引发 了 关于 ChatGPT 
生成 内 容 著作 权 的 归属 问题 纠纷 。Nature 针对 ChatGPT 被 列 为 作者 等 问题 在 投稿 指南 中 新 
增 了 大 语言 模型 不 能 列 为 论文 作者 和 论文 中 使 用 了 大 语言 模型 需要 在 方法 或 致谢 部 分 进行 
明确 说 明 两 大 原则 辐 。 国 内 以 《图 书 情 报 工作 》 为 代表 的 学 术 期 刊 也 在 投稿 政策 说 明 中 明确 
声明 不 接受 署名 包括 AI 工具 的 学 术 论 文 投稿 等 原则 名。 由 此 可 见 ， 学 术 期 刊 对 ChatGPT 所 
引发 的 学 术 伦 理 问 题 的 高 度 重 视 , 吸 需 可 以 分 辨 学 术 论 文 是 否 由 AI 生成 的 判定 方法 与 标准 。 

基于 上 述 分 析 , 甄别 学 术 论文 内 容 是 否 由 ChatGPT 类 AI 工具 生成 以 及 所 生成 的 文本 内 
容 与 学 者 人 工 撰写 的 特征 差异 就 显得 尤为 重要 。 有 具体 来 说 ,本文 以 信息 资源 管理 学 科 下 的 图 
书馆 学 、 情 报 学 、 档 案 学 领域 的 中 文学 术 论文 摘要 为 研究 对 象 ， 主 要 研究 如 下 问题 : (1) 
统计 机 器 学 习 及 深度 学 习 方法 能 否 判 别 出 中 文学 术 论 文摘 要 是 由 学 者 撰写 还 是 AI 生成 ? (2) 
学 者 撰写 的 学 术 论 文摘 要 与 AI 生成 的 学 术 论文 摘要 在 文本 特征 上 上 有 具有 哪些 异同 ?本 文 研究 
可 以 为 AI 生成 学 术 论 文 文本 的 质量 评价 提供 参考 ， 有 助 于 期 刊 对 学 术 论 文 的 原创 性 进行 辅 
助 评判 。 同 时 ， 根 据 人 工 与 AI 生成 中 文学 术 论 文 的 摘要 进行 内 容 特 征 分 析 ， 探 究 AI 生成 


内 容 的 特征 、 质 量 及 与 人 工 对 比 的 优 劣 之 处 ， 从 而 推动 AI 工具 在 学 术 论 文 撰写 、 学 术 出 版 
伦理 等 方面 的 合理 使 用 。 
1 相关 研究 

ChatGPT 的 官方 网 站 OpenAI 上 介绍 了 ChatGPT 模型 背后 的 方法 , 其 背后 的 核心 技术 包 
括 基 于 Transformer 的 预 训练 模型 、 人 类 反馈 的 强化 学 习 (Reinforcement Learning from Human 
Feedback，RLHF) 、 监 督 微 调 训练 、 奖 励 模型 中 。 简 而 言 之 ，ChatGPT 是 在 预 训练 之 后 通 
过 监督 微调 、 奖 励 模 型 与 强化 学 习 等 技术 手段 来 进一步 优化 模型 从 而 生成 合理 、 流畅 的 对 话 
言 息 ， 并 使 ChatGPT 具有 人 类 的 常识 与 价值 观 ， 对 待 敏感 问题 会 进行 合理 的 规避 。 当 前 ， 
针对 ChatGPT 的 相关 研究 主要 包括 如 下 两 方面 : 
是 关于 ChatGPT 对 某 一 学 科 或 领域 发 展 的 冲击 与 影响 。Chris 与 Richard! iA 73 
ChatGPT 类 生成 式 人 工 智能 技术 可 以 加 速 科 学 研究 .生成 创新 性 假设 ,从 而 推动 知识 的 发 展 ， 
但 对 数据 偏见 、 文 本 伦理 、 科 学 研究 的 重复 性 等 方面 表示 了 担忧 。Pawan 等 人 提出 了 生成 式 
人 工 智能 介入 人 力 资源 管理 领域 学 术 研 究 的 发 展 路 径 , 将 其 与 人 力 资源 管理 过 程 、 实 践 、 关 
系 和 结果 等 各 个 方面 联系 起 来 ， 探 析 了 未 来 人 力 资 源 管理 研究 的 方向 如。 戴 岭 等 人 认为 
ChatGPT 类 人 工 智 能 技术 突破 了 时 空 与 个 体 间 的 障碍 , 串联 了 学 习 网 络 中 古今 中 外 的 各 个 领 
R, 有 利于 教育 行业 的 数字 化 转型 和 教育 生态 系统 的 变革 , 但 是 也 为 教育 伦理 和 教育 数据 安 
全 带 来 了 挑战 [。 在 信息 资源 管理 领域 ， 主 要 有 陆 伟 等 人 从 支撑 算法 与 技术 、 信 息 资源 建 
设 \ 信 息 组 织 与 信息 检索 、 内 容 安全 与 评价 、 人 机 智能 交互 与 协同 六 个 方面 探讨 了 以 ChatGPT 
为 代表 的 大 语言 模型 对 信息 资源 管理 的 影响 山 。 张 智 雄 等 人 通过 总 结 生成 式 人 工 智 能 的 发 展 
历程 ， 从 数据 组 织 方式 、 知 识 服务 模式 、 情 报 分 析 方 法 、 文 献 使 用 方式 、 文 献 情报 队伍 建设 
等 方面 分 析 了 ChatGPT 对 文献 情报 工作 的 影响 , 并 根据 文献 情报 工作 的 特点 给 出 了 ChatGPT 
时 代 下 文献 情报 工作 的 发 展 建议 , 认为 知识 获取 能 力 的 提升 是 生成 式 人 工 智能 技术 高 速 发 展 
的 本 质 ,， 高 价值 的 语料库 是 生成 式 人 工 智 能 的 基础 ,文献 情 报 领 域 管理 着 更 含 人 类 高 价值 知 
识 的 领域 ， 在 生成 式 人 工 智 能 时 代 需 要 主动 适应 和 发 展 034。Brady D. 等 人 通过 概述 了 
ChatGPT 作为 一 个 聊天 机 器 人 背后 的 技术 原理 ， 接 着 利用 访谈 讨论 了 ChatGPT 在 图 书馆 领 
域 的 搜索 与 发 现 、 参 考 与 信息 服务 、 编 目 与 元 数据 生成 、 内 容 创 建 等 方面 大 有 可 为 ， 但 是 仍 
需要 警惕 隐私 与 偏见 等 伦理 问题 6]。 草 树 金 等 人 从 研究 问题 、 研 究 数据 和 研究 范式 三 个 角 
度 探 究 了 生成 式 人 工 智 能 对 情报 学 研究 的 影响 , 并 从 四 个 服务 层面 来 分 析 生 成 式 人 工 智能 对 
e 情报 实践 工作 的 变化 ， 认 为 情报 学 在 保证 客观 审视 的 态度 基础 上 积极 拥抱 新 一 代 人 工 智 能 
C) 09。 周 文 欢 0553 通 过 分 析 档 案 领 域 的 数字 化 与 智能 化 研究 现状 的 基础 上 ， 分 析 了 ChatGPT 可 

以 在 档案 文本 摘要 、 档 案 分 类 、 档 案 信息 智能 检索 、 档 案 信息 知识 问答 和 档案 保护 和 安全 五 
个 方面 具有 广阔 的 应 用 前 景 ， 可 提高 档案 管理 的 效率 、 精 度 和 智能 化 水 平 。 

二 是 关于 ChatGPT 在 各 类 文本 生成 任务 中 的 表现 与 测评 。2023 年 OpenAI 公司 发 布 了 
基于 GPT-4 的 ChatGPT 在 各 类 考试 任务 中 的 表现 ， 在 美国 律师 资格 考试 中 分 数 超过 了 90% 
的 人 类 。Zheng 等 人 考虑 到 ChatGPT 的 训练 数据 集 来 源 于 2021 年 之 前 ， 基 于 一 篇 不 存在 
ChatGPT 数据 库 中 的 学 术 论 文 反复 向 ChatGPT 进行 提问 从 而 评估 其 表现 ， 结 果 表 明 当 前 的 
ChatGPT 还 无 法 胜任 科学 写作 任务 ， 但 对 于 检查 语法 错误 并 改进 语言 具有 益处 09 。 
Fredricton['"1 认 为 在 使 用 ChatGPT 用 于 写作 前 需要 知道 ChatGPT 会 编造 不 存在 的 引文 内 容 ， 
作者 不 该 在 科学 写作 中 使 用 ChatGPT 生成 的 内 容 。 他 还 认为 期 刊 没 有 必要 对 作者 要 求 其 表 
明 在 科学 写作 中 使 用 ChatGPT 所 起 的 作用 ，ChatGPT 与 词 库 、 语 法 检查 器 等 一 样 都 是 写作 
工具 , ChatGPT 只 是 作者 所 选择 的 工具 之 一 , 作者 本 人 需要 对 自己 的 决定 负责 。 在 中 文 领 域 ， 
张 华 平等 人 将 ChatGPT 与 多 个 已 有 的 预 训练 模型 进行 对 比 ， 发 现 ChatGPT 在 中 文 情 感 分 析 
任务 上 已 经 具有 较 高 的 准确 率 ， 但 是 在 中 文 领域 的 闭卷 问答 上 会 经 常 出 现 事实 性 的 错误 0 。 
鲍 彤 等 人 则 是 在 多 个 中 文公 开 数 据 集 上 将 ChatGPT 与 多 个 预 训练 模型 对 比分 析 其 在 实体 抽 


取 、 关 系 抽 取 和 事件 抽取 上 的 效果 ， 结 果 表 明 ChatGPT 在 事件 抽取 任务 上 的 表现 优 于 其 它 
两 类 任务 09。 施 亦 龙 等 人 从 外 部 与 内 部 特征 、 情 感 与 认识 等 方面 探讨 了 同一 问题 下 ChatGPT 
与 知 乎 人 工 高 赞 答案 之 间 的 优 劣 特征 。 发 现 ChatGPT 可 以 使 人 更 加 便捷 地 获取 想 要 的 信息 ， 
回答 的 文本 特征 接近 人 工 高 赞 的 答复 , 但 是 在 不 同 主题 下 回答 的 质量 差异 较 大 , 并 伴随 着 虚 
假 信息 20。 

综 上 所 言 ， 除 了 探讨 ChatGPT 类 生成 式 人 工 智 能 工具 给 学 科 或 领域 带 来 的 机 遇 与 挑战 
之 外 ,也 开始 有 相关 的 实证 研究 来 对 其 表现 进行 测评 , 但 就 中 文 语料库 的 相关 研究 还 相对 不 
足 。 针 对 中 文 期 刊 论文 ， 分 析 ChatGPT 类 生成 式 人 工 智 能 工具 生成 的 文本 内 容 与 学 者 人 工 
撰写 的 学 术 内 容 之 间 异 同 的 相关 研究 还 远 远 不 足 。 本文 选择 信息 资源 管理 领域 下 的 图 书馆 学 、 
情报 学 、 档 案 学 的 学 术 文献 摘要 文本 作为 基础 数据 集 ， 利 用 ChatGPT 根据 文献 题目 来 生成 
对 应 的 摘要 文本 ， 探 究 ChatGPT 在 中 文学 术 论 文生 成 上 的 性 能 表现 ， 并 分 析 二 者 之 间 的 差 
异 。 
2 研究 设计 

为 了 分 析 学 者 人 工 撰 写 的 学 术 论 文摘 要 和 ChatGPT 生成 的 摘要 文本 之 间 的 异同 ， 本 文 
设计 的 研究 框架 如 图 1 所 示 。 
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图 1 研究 框架 


2.1 数据 来 源 与 处 理 

本 文 以 信息 资源 管理 领域 的 期 刊 论文 为 研究 对 象 ,并 依据 二 级 学 科 划 分 为 图 书馆 学 、 必 
报 学 、 档 案 学 三 类 ， 考 虑 到 学 术 文 献 的 代表 性 ， 本 文选 择 了 核心 期 刊 作 为 文献 来 源 。 同 时 
虑 到 ChatGPT 的 训练 数据 更 新 时 间 为 2021 年 9 月 (目前 ，GPT4 的 训练 数据 截止 时 间 也 
2021 年 9 H) ， 最 终 确 定 三 类 学 科 分 别 筛选 出 2018 年 9 月 -2021 Æ 8 月 间 500 mIa 
献 共 计 1500 篇 作为 基础 研究 样本 ， 针 对 器 领域 的 期 刊 如 《图 书 情 报 工作 》 则 人 工 介入 进 
分 类 筛选 ， 具 体 的 来 源 期 刊 名 称 及 论文 数量 如 表 1 所 示 。 

表 1 来 源 期 刊 名 称 及 论文 数量 
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二 级 学 科 名 称 来 源 期 刊 名 称 论文 数量 
《中 国 图 书馆 学 报 》 100 
《图 书 情报 工作 》 100 
图 书馆 学 《图 书 情报 知识 》 100 
《大 学 图 书馆 学 报 》 100 
《国家 图 书馆 学 刊 》 100 
情报 学 《情报 学 报 》 100 
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在 获取 到 相关 论文 的 题目 之 后 ， 还 需要 ChatGPT 来 生成 对 应 的 摘要 文本 。 在 生成 式 AI 
工具 的 使 用 过 程 中 Prompt 的 重要 性 不 言 而 喻 , Prompt 是 一 种 包含 了 引导 性 提示 信息 的 语言 ， 
从 而 让 模型 更 好 地 理解 并 生成 内 容 。 可 以 说 Prompt 的 好 坏 直接 影响 到 模型 的 输出 结果 。 本 
文 参考 了 CRISPE 框架 来 撰写 Prompt, CRISPE 框架 将 提示 的 创建 过 程 拆 分 为 清晰 、 结 构 化 
的 步骤 PC0。 其 中 ，CR (Capacity and Role) 代表 能 力 与 角色 ， 即 提问 者 希望 ChatGPT 扮演 
何 种 角色 。I (Insight) 为 ChatGPT 提供 背景 信息 与 上 下 文 ， 以 便 让 ChatGPT 充分 了 解 背 景 
与 需求 。S (Statement) 代表 用 户 所 制定 的 明确 的 任务 目标 ， 以 便 ChatGPT 满足 用 户 的 回应 。 
P (Personality) 代表 用 户 希 望 ChatGPT 以 何 种 风格 来 进行 回应 ， 这 一 步骤 有 助 于 ChatGPT 
生成 的 内 容 有 具备 个 性 化 。E (Experiment) 代表 用 户 在 粗略 搜索 的 情况 下 要 求 ChatGPT 生成 
多 种 示例 ， 生 成 多 种 答案 ， 从 而 让 用 户 可 以 在 多 样 选择 中 进行 对 比 和 评估 。 本 文 最 终 确定 的 
要 求 ChatGPT 生成 学 术 论文 摘要 的 Prompt 为 : 

"Eee fice EMRE BEFIT SE PEE EIE LEK, WEAR Y -iI HIA 
TRUE, ABA A XXX”, IRA M E PAPLER HAOR POCO BITIIEEOKA E 
EAA ITERUM. ” 

由 于 GPT-4 目前 有 调用 和 问答 次 数 限 制 ， 本 文通 过 自 编 Python 代码 调用 GPT3.5 接口 
来 批量 获取 ChatGPT 生成 的 摘要 内 容 ， 调 用 代码 如 图 2 所 示 。 


import openai 
import time 
144 
def generate, prompt (prompt): 
return "RE-USE BERS / ESR LR, POSE T — RAARO WAA XXX”, RUB PRA CAMs HRP GC SETTORE LR H cA. " + prompt 
1 个 用 法 
def openai_reply(content, apikey): 
openai.api key - apikey 
response = openai.ChatCompletion.create( 
model-"gpt-3.5-turbo-0381", 
messages-[ 
i"role": "user", "content": generate. prompt(content)) 


1, 
temperature=0.5, 
max_tokens=1000, 
top_p=1, 
frequency_penalty=0, 
presence, penalty-8, 
) 
return response.choices[0].message.content 


1 个 用 法 
def read topics from file(file path): 
topics - [] 
with open(file path, 'r', encoding='utf-8') as f: 
for line in f: 
topic = line.strip() 
if topic: 
topics.append(topic) 
return topics 
# topics.txt x a 
file_path = 'topics.txt' 
topics_list = read_topics_from_file(file_path) 


# OpenAL t 
output file = 'summaries.txt' 
with open(output file, 'w', encoding='utf-8') as f: 
for i, topic in enumerate(topics list, 1): 
print(f" 生 成 摘要 (iL/(len(topics list)): ") 
response = openai_reply(topic, "sk-8YXuIfmlqWBLiuK52C8vT3BLbkFJCJha5yZyI7KKuTaV7SxZ") 
.write(f" 摘 要 {i}: \n{response}\n") 
Pit -~ y, 


time.sleep(20) 


2 调用 ChatGPT 生成 学 术 文本 摘要 代码 
最 终 ， 将 学 者 撰写 的 1500 篇 摘要 文本 与 ChatGPT 生成 的 1500 篇 摘要 文本 保存 为 本 地 


Excel 文件 。 数 据 预 处 理 的 过 程 如 下 所 述 : 

(1) 领域 词 表 构建 : 将 学 者 撰写 的 1500 篇 论文 关键 词 作为 初始 领域 词 表 , 加 上 网 络 中 
图 情 档 领域 的 常规 术语 ， 经 人 工 筛 查 后 共 确 定 1376 个 词语 作为 领域 词 表 ， 以 便 后 续 的 分 词 
操作 。 

(2) 停 用 词 表 构建 : 为 了 尽 可 能 获取 ChatGPT 生成 的 摘要 文本 特征 ,本文 在 停 用 词 的 
选择 上 仅 考 虑 将 标点 符号 和 无 意义 虚词 加 入 到 停 用 词 表 中 。 

(3) 文本 分 词 : 通过 自 编 Python 代码 调用 LTP 自然 语言 处 理 包 , 加 载 领域 词 表 和 停 用 
词 表 来 对 摘要 文本 进行 分 词 。 

(4) 分 类 标注 : 对 ChatGPT 生成 的 与 学 者 撰写 的 文本 摘要 分 别 以 0 和 1 进行 标记 。 
2.2 文本 分 类 标注 

本 文 的 研究 目标 是 探究 当前 的 主流 机 器 学 习 和 深度 学 习 算 法 能 否 鉴别 出 ChatGPT 生成 
和 学 者 撰写 学 术 论 文摘 要 的 类 别 及 其 差异 。 从 粗 粒度 来 看 可 将 这 一 问题 转化 为 经 典 的 二 分 类 
问题 ， 通 过 TF-IDF 法 来 进行 文本 向 量化 表示 后 ， 利 用 SYM、NB、K 近邻 、 决 策 树 、 人 逻辑 
回归 、 随 机 森林 、xgboost 常见 的 七 种 机 器 学 习 分 类 算法 及 BERT 和 ERNIE 两 种 深度 预 训练 
语言 模型 进行 分 类 实验 ， 选 取 准 确 率 (Accuracy) 、 精 确 率 (Precision) ~ HEX (Recall), 


> Fl 值 作 为 评价 指标 ， 按 照常 规 机 器 学 习 领 域 的 数据 集 划 分 标准 ， 将 文本 数据 集 的 70% 作 为 
st 训练 集 来 训练 分 类 模型 ， 剩 余 的 30% 数 据 集 作为 测试 集 来 评估 模型 的 分 类 性 能 。 
N 23 文本 内 容 分 析 


O 除了 对 ChatGPT 生成 与 学 者 撰写 的 学 术 论文 摘要 做 分 类 识别 之 外 ， 本 文 还 采用 了 文本 
= 特征 检测 、 主 题 模 型 一 致 性 检测 、ROUGE 评测 来 从 内 容 层 面 对 二 者 之 间 的 差异 进行 解读 。 
e 文本 特征 检测 主要 包括 字 、 词 、 句 三 个 维度 的 特征 检测 。 具体 而 言 , 字 就 是 判断 ChatGPT 
生成 与 学 者 撰写 的 摘要 字数 差异 ; 词 是 二 者 之 间 高 频 关 键 词 的 异同 ; 句 是 二 者 之 间 摘 要 句子 
个 数 的 差异 。 文 本 特征 通常 可 以 直观 反映 一 个 文本 的 核心 特点 ， 通 过 从 字 、 词 、 句 角度 来 分 
析 有 利于 比较 二 者 在 重点 概念 、 学 术 术 语 、 语 言 表 达 上 的 差异 。 

主题 模型 一 致 性 检测 主要 利用 LDA 主题 模型 来 对 比 二 者 之 间 的 主题 分 布 ., LDA (Latent 
Dirichlet Allocation) 模型 由 BLEI 等 学 者 于 2003 年 提出 ， 该 模型 是 一 种 包括 词 、 主 题 和 文 
档 的 三 层 贝 叶 斯 网 络 模 型 ,用 于 发 现 文本 数据 中 的 潜在 主题 并 将 文本 文档 分 配 到 这 些 主题 当 
H. {EH LDA 主题 模型 可 以 识别 ChatGPT 生成 与 学 者 撰写 的 学 术 论 文摘 要 之 间 的 主题 差异 ， 
从 而 揭示 出 它们 在 内 容 上 的 异同 。LDA 主题 模型 中 文档 生成 的 过 程 如 图 3 所 示 。 


狄 利克 雷 分 布 B 


词语 


分 布 


图 3 LDA 主题 模型 图 


: 按照 先 验 概率 pld 选择 一 篇 文档 d，; 
: 从 Dirichlet 分 布 w 中 ， 抽 样 生 成 文档 d, 的 主题 分 布 0; 
: 从 主题 分 2 中， 抽样 生成 文档 d; 的 第 j 个 词 的 主题 z，; 
: 从 Dirichlet 分 布 太 中 ， 抽 样 生成 主题 5. 对 应 的 词语 分 布 办 ，: 

第 五 步 : 从 词语 分 布 加， 中 ， 抽 样 生成 词语 WwW o 

ROUGE CRecall-Oriented Understudy for Gisting Evaluation) 是 一 组 自动 评价 指标 ， 用 来 
衡量 生成 的 文本 摘要 或 机 器 翻译 结果 与 参考 摘要 之 间 的 相似 度 。 在 自然 语言 处 理 任 务 中 评估 
摘要 生成 和 机 器 翻译 的 任务 重 被 广泛 使 用 。ROUGE 主要 关注 召回 率 (Recall) ， 将 生成 摘 
要 和 参考 摘要 看 作 是 一 个 词 袋 模型 ,通过 计算 词 的 重 登 程度 来 衡量 它们 之 间 的 相似 性 , 即 判 
定 生成 的 摘要 中 包含 了 多 少 参 考 摘要 的 内 容 。 常 见 的 ROUGE 指标 主要 包括 : 

ROUGE-N: 该 指标 计算 生成 摘要 和 参考 摘要 之 间 N-gram CEN 个 词 ) 的 召回 率 。 
计算 方式 如 公式 1 所 示 。 


N 


S 
In 
S 


3 Count paten (eram, ) 


ROUGE E N E Sef{referenceSummaries} gram, eS 公式 ( 1 ) 
> Count(gram, ) 


f p " i 7 
Se{referenceSummaries } gram, eS 


其 中 ， 分 母 是 学 者 撰写 摘要 中 一 gram 的 个 数 ， 分 子 是 学 者 撰写 摘要 与 ChatGPT 生成 


的 摘要 共 现 的 n 一 gram 的 个 数 '，ROUGE — N 特点 是 简洁 且 有 词 序 特征 , 但 是 随 着 N 的 增 


大 ， 值 会 又 降 。 一 般 采 用 ROVGE —1 Fil ROUGE - 2 作为 评价 指标 。 

ROUGE-L: 该 指标 计算 最 长 公共 子 序 列 (Longest Common Subsequence, LCS) 的 召回 
率 。 它 衡量 了 生成 摘要 和 参考 摘要 之 间 的 长 距离 依赖 和 顺序 一 致 性 ， 计 算 方式 如 公式 2-4 所 
示 。 


LCS(X,Y 
p EROR x (2) 
m 
LCS(X,Y 
pce = (3) 
n 
1+ DR P, 
rus BM » = D 


Ics 2 
Res 十 p Pes 


ort, LCSQXGY) 2X MY RKARTFIKKE, m 与 nn 分别 代 表 学 者 撰写 的 摘 


要 与 ChatGPT 生成 摘要 的 长 度 ，Ri 与 Ps 分 别 代 表 召 回 率 和 准确 率 ， 用 于 均衡 二 者 之 间 


的 重要 性 。ROUGE 一 上 的 特点 是 不 需要 像 ROUGE -N 去 制 定 n 一 87am 的 长 度 ， 但 是 只 


考虑 了 最 长 子 序列 的 长 度 ， 比 较 适 合 短 摘要 提取 的 测评 。 

此 外 ， 在 该 步骤 本 文 还 采用 了 余弦 相似 度 来 检测 ChatGPT 生成 与 学 者 撰写 摘要 的 相似 
程度 ， 从 而 跟 ROUGE 的 指标 结果 形成 对 比 。 
3 结果 分 析 

3.1 摘要 分 类 结果 


基于 前 文 所 述 的 二 


分 类 步骤 及 9 种 分 类 模型 ， 本 文 对 ChatGPT 生成 的 学 术 论文 摘要 和 


4 


学 者 人 工 撰写 的 摘要 进行 分 类 测试 ， 结 果 如 表 2 所 示 。 


K 2 ChatGPT 生成 与 学 者 人 工 撰写 文本 摘要 在 不 同 分 类 模型 下 的 对 比 效 果 


评价 指标 : Accuracy(A) Precision(P) Fl-Score(F1) 


分 类 
图 书馆 学 情报 学 档案 学 整体 
A P Fl A P F1 A P Fl A P Fl 
SVM 90.33% 90.61% 90.29% | 91.00% 91.06% 91.00% | 79.67% 80.10% 79.67% 94.12% 94.18% 94.11% 
NB 63.33% 69.22% 60.96% | 73.33% 75.53% 72.57% | 69.00% 70.10% 67.84% 75.36% 78.18% 74.89% 
KNN 45.67% 45.11% 42.44% 46.67% 46.00% 45.27% | 49.00% 47.21% 45.79% 47.84% 47.98% 47.61% 
DT 92.67% 92.67% 92.67% | 91.33% 91.37% 91.33% | 88.67% 88.61% 88.64% 93.12% 93.11% 93.12% 
Logistic 91.33% 92.04% 91.27% | 87.00% 87.23% 86.99% | 75.00% 75.73% 75.0096 92.45% 92.76% 92.43% 
RF 94.67% 94.66% 94.66% | 96.33% 96.55% 96.32% | 95.00% 95.11% 95.00% 96.12% 96.11% 96.12% 
Xgboost 94.00% 93.99% 94.00% | 97.00% 97.00% 97.00% | 93.67% 93.62% 93.65% 96.56% 96.55% 96.56% 
BERT 99.67% 99.68% 99.67% | 100% 100% 100% 98.67% 98.75% 98.66% 97.89% 97.91% 97.89% 
ERNIE 100% 100% 100% 99.67% 99.65% 99.67% | 99.00% 98.98% 99.00% 99.45% 99.45% 99.45% 
由 表 2 AA, Æ 9 种 分 类 模型 中 ， 基 于 深度 学 习 的 ERNIE 取得 的 分 类 效果 最 好 ，BERT 
模型 次 之 。 原 因 在 于 本 文 所 研究 对 象 为 中 文学 术 论文 摘要 ， 而 ERNIE 是 百度 在 基于 BERT 
模型 基础 上 针对 中 文 NLP 任务 做 的 进一步 优化 。 此 外 ， 在 7 种 机 器 学 习 分 类 模型 中 ， 除 了 


NB 和 KNN LLY 
均 具 备 良 


分 类 算法 在 档案 学 领域 


学 领域 ChatGPT 生成 与 学 者 撰写 的 摘要 更 加 接近 。 


， 其 余 5 种 机 器 学 习 分 类 模型 的 整体 F1-Score 均 超过 了 90%， 这 表明 它们 


好 的 分 类 效果 ， 而 NB M KNN 在 该 问题 上 的 效果 较 差 。 从 三 个 二 级 学 科 来 看 ， 各 
的 分 类 上 较 图 书馆 学 和 情报 学 更 低 , 表明 从 文本 分 类 角度 来 看 , 档案 


文本 分 类 实验 中 , 其 特征 词 对 于 分 类 的 判定 至 关 重 要 , 特征 词 的 选择 直接 关系 到 模型 分 
类 的 效果 与 能 力 。 本 文选 择 了 在 三 个 二 级 学 科 领 域 F1-Score 均 超过 90% 的 机 器 学 习 分 类 模 
AY RF 和 Xgboost， 分 析 2 种 分 类 算法 排名 前 10 的 特征 词 ， 结 果 如 表 3 所 示 。 
R 3 RF 算法 与 Xgboost 算法 前 10 特征 词 
a RF 特征 词 Xgboost 特征 词 
Bs 图 书馆 学 ”情报 学 。 档案 学 图 书馆 学 RZ ”档案 学 
1 本 文 本 文 探讨 本 文 结论 可 靠 性 
2 最 后 结论 意义 访谈 情境 探讨 
3 探讨 最 后 提出 因素 图 谱 调整 
4 提出 探讨 研究 成 果 阶段 计算 实验 
5 | 研究 成 果 BM 数字 化 社交 典型 探究 
6 结论 WARR 重要 性 探讨 生成 ”结果 表明 
7 数字 化 一 种 保护 最 后 ”结果 显示 ”比较 
8 现状 提出 阐述 参考 价值 mS 有 利于 
9 挑战 — 参考 价值 Bw 公共 卫生 ”得 出 网 络 
10 建议 发 现 参考 实验 。 关键 因素 ”研究 成 果 
通过 表 3 不 难 发 现 ， 尽 管 二 种 算法 在 三 个 领域 的 关键 词 及 排序 各 有 不 同 ， 但 如 “本 文 ”、 
“结论 ”、“ 探 讨 ”、“ 最 后 ”等 词 在 两 类 算法 中 均 有 出 现 ， 表 明 这 些 词 可 以 有 效 的 区 分 摘 


El 
要 是 


合 特征 词 来 看 ， 表 明 在 


MZ 


情报 学 领域 “情境 ”、 


éé Eie » & ils 


由 ChatGPT 生成 还 是 学 者 撰写 的 。 更 具体 地 ，REF 5 Xgboost # 
Fl-Score 较为 接近 ， 而 在 情报 学 领域 Xgboost F RE， 在 档案 学 领域 RF 优 于 Xgboost. 4 


”等 词语 在 分 类 上 


日 比 在 图 书馆 学 领域 
ot 
具有 更 重要 
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的 特征 ， 在 档案 学 领域 “意义 ”、“ 数 字 化 ”、“ 重 要 性 ”、“ 保 护 ”等 词语 在 分 类 上 具有 


更 重要 的 特征 。 


3.2 文本 内 容 分 析 
除了 验证 机 器 学 习 模 型 是 否 可 以 区 分 学 术 论 文摘 要 是 由 ChatGPT 生成 还 是 学 者 撰写 以 
还 需要 从 文本 内 容 层面 来 检验 二 者 的 异同 ， 以 了 解 其 文本 内 部 的 差异 性 。 本 节 从 文本 特 


i 


外 
征 、 


~ 


题 模 型 、ROUGE 检测 三 方面 来 探析 二 者 之 间 的 差异 。 


3.2.1 文本 特征 分 析 

学 术 论 文摘 要 作为 一 种 典型 的 短文 本 ， 其 字 、 词 、 句 均 能 反应 摘要 文本 的 特征 。 摘 要 长 
度 指 的 是 一 篇 学 术 论 文摘 要 的 中 文字 符 个 数 , 分 别 对 二 者 的 摘要 长 度 按 照 三 个 二 级 学 科 进 行 
统计 并 绘制 统计 直方 图 ， 如 图 4 所 示 。 
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图 4 摘要 长 度 正 态 分 布 拟 合 直方 图 


为 了 直观 展示 ChatGPT 生成 与 学 者 撰写 摘要 长 度 的 统计 信息 ， 本 文采 用 了 平均 值 、 均 
方差 、 偏 态 、 峰 度 作为 统计 指标 ， 具 体 如 表 4 所 示 。 


表 4 摘要 长 度 统计 信息 表 


统计 图 书馆 学 情报 学 档案 学 整体 
指标 | GPT | 学 者 | GPT | 学 者 | GPT | 学 者 | GPT | 学 者 


平均 值 | 334.45 | 277.95 | 326.44 | 306.02 | 348.77 | 231.56 | 336.55 | 271.84 


均 方 差 | 92.29 | 113.11 | 85.49 | 69.41 | 106.05 | 61.98 | 95.44 | 89.96 


偏 态 1.02 2.25 0.97 0.72 1.08 0.47 1.09 1.76 


峰 度 


0.32 


11.10 


0.29 


1.16 


0.83 


0.33 


0.86 


10.36 


结合 图 
而 学 者 撰写 
小 ， 


者 撰写 摘要 文本 字符 数 分 布 的 峰值 
案 学 差距 最 大 ; 在 均 方差 指标 上 ， 
图 书馆 学 差距 最 大 ; 在 峰 度 指标 上 ， 


学 差距 最 小 ， 
情报 学 差距 最 小 ， 


态 指标 上 ， 


4 和 表 4 可知 ， 从 整体 上 来 看 ChatGPT 生成 摘要 文本 的 字符 数 均值 为 336.55， 


摘要 文本 的 字 


档 


学 差距 最 大 。 


除了 从 


表明 二 者 的 数据 分 散 程度 相当 。 
[更 加 尖锐 。 


符 数 平均 值 为 271.84, 两 者 之 间 差 异性 较 大 , 但 在 
峰 度 差距 很 大 ， 表明 二 者 的 峰值 尖锐 程度 差距 较 大 ， 学 
具体 到 二 级 学 科 来 看 ， 在 3 
情报 学 差距 最 小 ， 


字 的 层面 来 看 二 者 之 间 的 差异 外 , 通过 
过 TF-IDF 和 TextRank 算法 来 对 二 者 进行 关键 词 抽 
K 5 ChatGPT 生成 与 学 者 撰写 摘要 文本 关键 词 


取 ， 结 果 如 表 5 所 示 。 


均值 指标 上 ， 情 报 
档案 学 差距 最 大 ; 在 偏 
情报 学 差距 最 小 ， 图 书馆 


均 方差 上 差异 较 


j 词 的 习惯 也 能 反应 二 者 的 写作 风格 。 通 


SE = TF-IDF TextRank 
TROU GPT 学 者 GPT 学 者 
图 书馆 、 本 文 、 | 图 书馆 、 数 据 、 | 本 文 、 图 书馆 、 | 图 书馆 、 数 据 、 
阅读 、 探 讨 、 数 | 阅读 、 建 设 、 数 | 探讨 、 数 据 、 阅 | 阅读 、 建 设 、 数 
图 书馆 学 据 、 提出、 数字 、| 字 、 影 响 、 智 慧 、| 读 、 最 后 、 提 出 、| 字 、 提 出 、 文 献 、 
建设 、 最 后 、 影 | 提出 、 文 献 、 素 | 建设 、 影 响 、 数 | 意义 、 影 响 、 文 
响 养 字 E 
本 文 、 数 据 、 网 | 数据 、 网 络 、 影 | 本 文 、 探 讨 、 数 | 数据 、 意 义 、 结 
情报 学 络 、 影 响 、 提 出 、| mu. Efe. 意义 、| E. DIR. 论 、 网 络 、 影 响 、 
与 情 、 探 讨 、 因 | 结论 、 因 素 、 提 | 网 络 、 提 出 、 社 | 与 情 、 提 出 、 本 
素 、 社 交 、 最 后 | 出 、 事 件 、 治 理 | 交 、 最 后 、 p X. RE. 1638 
本 文 、 探 讨 、 数 | 数据 、 数 字 、 治 | 本 文 、 探 讨 、 档 | 数据 、 治 理 、 建 
字 、 档 案 学 、 提 | 理 、 档 案 学 、 建 | 案 学 、 最 后 、 档 | 设 、 档 案 学 、 数 
档案 学 出 、 档 案 管 理 、 | Wt. 文件 、 电 子 、| 案 管理 、 提 出 、 | 字 、 提出 、 记忆 、 
数字 化 、 数 据 、 | 提出 、 记 忆 、 档 | 数字 化 、 数 据 、 | 本 文 、 新 、 档 案 
最 后 、 保 护 案 馆 数字 、 保 护 管理 
本 文 、 图 书馆 、 | 数据 、 图 书馆 、 | 本 文 、 探 讨 、 图 | 图 书馆 、 数据 、 
数据 、 探 讨 、 提 | 有 影响、 网络 、 数 | 书馆 、 数 据 、 最 | 治理 、 建 设 、 
整体 出 、 最 后 、 影 响 、| 字 、 意 义 、 提 出 、| 后 、 提 出 、 影 响 、| 义 、 提 出 、 wii 
数字 、 数 字 化 、 | 建设 、 治 理 、 结 | 因素 、 数 字 、 发 | 数字 、 本 文 、 网 
建设 论 现 络 


由 表 5 可 知 , 从 整体 上 看 二 者 的 关键 词 较为 接近 , 但 ChatGPT 生成 摘要 文本 往往 有 “本 


X”, R 


| 2 
uy ` 


词 或 动词 。 从 三 个 二 级 学 科 来 看 ， 情 报 学 令 


二 者 间 的 


关键 词 差异 更 多 。 


6 最 后 ” LR 
aT 


过 渡 性 结构 化 词语 ， 而 学 者 撰写 的 摘要 文本 则 多 为 实质 性 的 名 
页 域 二 者 之 间 的 关键 词 较为 接近 


在 从 字 、 
要 的 差异 , 力求 从 多 个 角度 剖析 二 者 的 异同 。 分 别 对 二 者 的 摘要 


进行 统计 # 


in] 


角度 考虑 外 ， 本 文 还 从 句子 数量 的 角 / 


绘制 统计 直方 图 ， 


如 图 5 所 示 。 


， 图 书馆 学 和 档案 


度 来 分 析 ChatGPT 生成 与 学 者 撰写 摘 


句子 长 度 按照 三 个 二 级 学 科 
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图 5 摘要 句子 长 度 正 态 分 布 拟 合 直方 图 


与 分 析 搞 要 长 度 的 统计 信息 类 似 ， 为 了 更 加 直观 展示 ChatGPT 生成 与 学 者 撰写 摘要 名 
子 长 度 的 统计 信息 ， 这 里 延续 采用 了 平均 值 、 均 方差 、 偏 态 、 峰 度 作 为 统计 指标 ， 有 具体 如 表 


6 所 示 。 


统计 


图 书馆 学 情报 学 HRF 


表 6 摘要 长 度 统计 信息 表 
ra 整体 


指标 | GPT | 学 者 | GPT | 学 者 | GPT | 学 者 | GPT | 学 者 
平均 值 | 8.04 | 5.12 | 800 | 5.07 | 857 | 4.17 | 820 | 4.79 
均 方差 | 241 | 2.01 | 2.10 | 1.27 | 2.78 | 1.26 | 2.46 | 1.61 
偏 态 | 1.58 | 1.52 | 128 | 1.27 | 1.37 | 1.16 | 1.49 | 1.55 
峰 度 | 2.80 | 601 | 1.78 | 2.69 | 1.54 | 3.60 | 2.35 | 6.40 


结合 图 5 和 表 6 可 知 , 整体 而 言 , ChatGPT 生成 摘要 是 学 者 撰写 摘要 的 文本 句子 数量 的 


近 2 倍 ， 均 方差 也 更 高 ， 表 明 ChatGPT 生成 摘要 的 句子 数量 整体 上 更 加 分 散 。 二 者 的 偏 态 
KA, 即 二 者 数量 分 布 的 态势 较为 一 致 。 而 学 者 撰写 的 摘要 句子 数量 的 峰 度 更 大 , 表明 其 数 


量 分 布 的 峰值 较为 尖锐 。 具体 到 各 二 级 学 科 来 看 , ChatGPT 生成 摘要 的 句子 数量 均 超 过 学 者 


撰写 摘要 的 句子 数量 ; 均 方差 方面 ， 图 书馆 学 领域 相当 ,情报 学 与 档案 学 均 是 学 者 撰写 摘要 
的 句子 数量 均 方差 更 低 ; 偏 态 方面 ， 图 书馆 学 和 情报 学 两 者 都 较为 接近 ， 而 档案 学 则 是 学 者 
撰写 摘要 的 句子 数量 偏 态 更 低 ; 


峰 度 方面 ， 图 书馆 学 与 档案 学 领域 的 ChatGPT 与 学 者 撰写 


摘要 的 句子 数量 峰 度 差距 更 大 ， 且 学 者 撰写 摘要 句子 数量 的 峰 度 值 均 超过 了 3， 代表 这 两 个 
领域 句子 数量 分 布 的 峰值 较为 尖锐 。 


3.22 主题 模型 分 析 

对 ChatGPT 生成 与 学 者 撰写 的 学 术 论 文摘 要 进行 LDA 主题 模型 分 析 , 从 而 把 握 二 者 之 
困惑 度 来 衡量 模型 ,具体 如 图 
日 是 当主 题 数目 


间 在 文本 主题 上 的 差异 。 本 文采 
题 的 相似 性 , 一 般 而 言 
根据 所 绘制 的 ChatGPT 生成 与 学 者 撰写 摘要 文本 的 
可 能 最 优 主 题 数 ， 本 文 最 终 确定 9 为 最 佳 主题 


GPT Perplexity vs. Number of Topics 


困惑 度 的 值 越 低 越 好 ， 


= 


LS 


数 。 


Scholar Perplexity vs. Number of Topics 


6 所 示 。 困 惑 度 
过 多 时 , 模型 往生 
惑 度 -主题 数 折线 图 


j 来 描述 了 
E 已 经 过 拟 合 。 


us 


， 综 合 考虑 二 者 的 


1.2 3 4 5 6 7 8 9 10 H 1 13 144 15 16 17 18 19 20 


Number of Topics 
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Number of Topics 


图 6 ChatGPT 生成 与 学 者 撰写 摘要 困惑 度 -主题 数 折线 图 


(EW 


角 定 了 最 优 主题 数 之 后 ， 将 经 过 预 处 理 
- 词 ”分 布 ， 选 取 9 个 主题 中 概率 排名 前 5 位 的 词汇 进行 汇总 ， 刀 


的 文本 导入 LDA 主题 模型 
IX 7 所 示 。 


4 训练 ， 得 到 “主题 


AT “主题 - 词 ”分 布 

序 | 主题 名 称 | 主题 词 (学 者 ) 主 Æ 名 P| 主题 词 (ChatGPT) 

号 | (学 者 ) (ChatGPT) 

1 红色 记忆 | 疫情 、 红 色 、 记 忆 、 文 献 、| RIZR ERES Ax. Bg. ETE. JE. 
建设 情感 

2 网 络 与 情 | PZ. BTL SRR. 情感 、| 智慧 图 书馆 图 书馆 、 本 文 、 建 设 、 阅 
意义 读 、 探 讨 

3 RRA | 学 科 、 情 报 、 应 急 、 情 报 | 数字 人 文 数字 、 本 文 、 数 字 化 、 人 
学 、 图 书 文 、 探 讨 

4 | 智慧 图 书 | 图 书馆 、 建 设 、 智 慧 、 治 | 数据 治理 数据 、 本 文 、 治 理 、 提 出 、 

馆 理 、 阅 读 保护 

5 | 数据 治理 | 数据 、 数 字 、 开 放 、 人 文 、| 数据 共享 本 文 、 档 案 馆 、 开 发 、 数 
治理 据 、 共 享 

6 | 影响 因素 “| 影响、 因素、 感知 、 档 案 | 数字 记忆 本 文 、 记 忆 、 认 知 、 情 绪 、 
学 、 意 愿 老年 人 

7 户 画 像 | 画像 、 分类、 学 习 、 提出、| 信息 素养 本 文 、 教 育 、 素 养 、 提 出 、 
风险 探讨 

8 电子 文件 | 电子 、 文件 、 文书 、 证 据 、| 应 急事 件 本 文 、 应急、 事件 、 学 术 、 
公众 文书 

9 | 信息 素养 | 素养 、 教 育 、 个 人 信息 、 | 影响 因素 影响 、 因 素 、 本 文 、 社 交 、 
保护 、 评 论 发 现 

由 表 4 可 知 ，ChatGPT 生成 与 学 者 撰写 摘要 的 主题 分 布 较为 一 致 ， 如 “智慧 图 书馆 ”、 


“数据 治理 ”、 
“应 急事 件 ”、 
3.2.3 ROUGE 评测 


为 了 定量 评测 ChatGPT 生成 与 学 者 撰写 的 摘要 文本 之 间 的 相似 度 ， 本 文采 用 


“影响 因素 ”、 


6 信 
A 


ARF” 


^k 
^ 


。 其 中 的 差异 主题 主要 体现 在 “学 科 体系 ”、 
“数字 人 文 ”。 表 明 二 者 在 这 些 主题 上 的 行文 风格 差异 较 大 。 


于 评价 


动 文本 摘要 效果 的 ROUGE-1、ROUGE-2、ROUGE-L， 此 外 还 增加 了 余弦 相似 度 


来 检测 二 者 之 间 的 相似 程度 。ROUGE 主要 统计 二 者 之 间 重 县 的 基本 单元 数目 ， 而 余 强 相似 


度 主 要 测量 二 者 在 整体 方向 上 的 相似 愧 


E， 结 果 如 表 8 所 示 。 


表 8 ROUGE 与 余弦 相似 度 评测 结果 
评测 标准 c ae. 
图 书馆 学 情报 学 档案 学 整体 
ROUGE-1 29.69% 31.06% 28.5094 29.75% 
ROUGE-2 7.92% 8.49% 7.4994 7.9794 
ROUGE-3 22.0496 22.10% — 21.6694 21.93% 
余弦 相似 度 73.83% 73.30% 70.23% 72.45% 


受 当 前 ChatGPT 输入 字符 的 限制 ， 且 ChatGPT 本 身 是 作为 一 种 生成 式 人 工 智 能 工具 ， 
其 主要 功能 是 由 用 户 输入 来 生成 回复 内 容 。 因 此 ， 在 ROUGE 评测 时 ， 暂 无 法 与 目前 的 基准 
算法 进行 对 比 , 原因 在 于 相关 的 基准 算法 是 根据 全 文 来 生成 对 应 的 摘要 。 通过 与 当前 主流 基 
准 算 法 在 公开 评测 数据 集 上 的 表现 对 比 可 知 22231， 尽 管 ChatGPT 生成 的 摘要 评测 分 数 还 偏 
低 ， 但 是 其 余弦 相似 度 较 高 。 这 表明 二 者 生成 的 内 容 主要 存在 “形似 ”现象 ， 即 表明 看 起 来 
很 接近 ， 但 是 重用 单 元 数据 较 低 。 在 三 个 二 级 学 科 领 域 中 ， 情 报 学 领域 二 者 的 相似 度 更 高 ， 
而 档案 学 领域 二 者 的 相似 度 更 低 ， 说 明 与 情报 学 相 比 ， 档 案 学 领域 ChatGPT 生成 的 内 容 与 
学 者 撰写 的 摘要 内 容 差异 更 大 。 
4 结论 

本 文 以 信息 资源 管理 领域 的 三 个 二 级 学 科 近 年 来 高 被 引 论文 为 研究 对 象 , 在 获取 论文 标 
题 的 基础 上 ， 通 过 调用 ChatGPT 接口 设计 Prompt 提问 来 获取 AI 生成 的 论文 摘要 。 采 用 9 
种 机 器 学 习 及 深度 学 习 算 法 对 二 者 进行 分 类 识别 , 并 从 文本 内 容 的 多 个 角度 分 析 了 二 者 的 差 
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在 分 类 识别 上 ,主流 的 机 器 学 习 或 深度 学 习 分 类 模型 可 以 有 效 识别 摘要 文本 是 ChatGPT 
生成 还 是 学 者 撰写 。 在 所 选 的 9 种 分 类 模型 中 ， 两 种 深度 学 习 模 型 ERNIE 和 BERT 的 分 类 
v 效果 最 好 , 在 机 器 学 习 算 法 中 , 除 NB 和 KNN 以 外 , 其 余 5 种 机 器 学 习 算 法 的 整体 Fl1-Score 
A 均 超过 了 90% 。 从 二 级 学 科 来 看 ， 各 分 类 算法 在 档案 学 领域 的 摘要 分 类 上 F1-Score 较 图 情 
领域 更 低 。 
在 文本 特征 分 析 上 , 从 字 的 角度 来 看 , ChatGPT 生成 的 摘要 平均 长 度 比 学 者 撰写 的 更 长 ， 
QO 二 者 的 数据 分 散 程度 相当 ， 峰 度 差距 较 大 。 具 体 到 三 个 二 级 学 科 来 看 ， 在 平均 值 指标 上 ， 情 
报 学 差距 最 小 ， 档 案 学 差距 最 大 ; 在 均 方差 指标 上 ,情报 学 差距 最 小 ， 档 案 学 差距 最 大 ; 在 
偏 态 指 标 上 ， 情 报 学 差距 最 小 ， 图 书馆 学 差距 最 大 ; 在 峰 度 指标 上 ， 情 报 学 差距 最 小 ， 图 书 
馆 学 差距 最 大 。 从 词 角度 来 看 ， 二 者 的 整体 关键 词 较为 接近 ， 但 ChatGPT 生成 摘要 文本 往 
往 伴随 着 “本 文 ”、“ 提 出 ”、“ 最 后 ”这 样 的 过 渡 性 词语 出 现 ， 从 三 个 二 级 学 科 来 看 ， 情 
报 学 领域 二 者 的 关键 词 更 为 接近 。 从 句 的 角度 来 看 ,ChatGPT 生成 摘要 是 学 者 撰写 摘要 的 文 
本 句子 数量 的 近 2 fà, 均 方差 也 更 高 , 二 者 的 偏 态 相当 , 学 者 撰写 摘要 句子 数量 的 峰 度 更 大 。 
具体 到 三 个 二 级 学 科 来 说 ， 在 平均 值 指标 上 ， 档 案 学 差距 最 大 ， 图 情 领域 差距 更 小 ; 在 均 方 
差 指 标 上 ， 图 书馆 学 差距 最 小 ， 档 案 学 差距 最 大 ; 在 偏 态 指标 上 ， 情 报 学 差距 最 小 ， 档 案 学 
差距 最 大 ; 在 峰 度 指标 上 ， 情 报 学 差距 最 小 ， 图 书馆 学 差距 最 大 。 
在 主题 模型 分 析 方 面 , ChatGPT 生成 与 学 者 撰写 摘要 文本 的 主题 分 布 较为 一 致 ,主要 在 
“学 科 体 系 ”、“ 应 急事 件 ”、“ 数 字 人 文 ”方面 有 较 大 差异 。 在 ROUGE 评测 方面 ， 当 前 
ChatGPT 生成 摘要 的 评测 分 数 在 ROUGE-1、ROUGE-2、ROUGE-L 三 个 指标 上 均 较 低 ， 但 
是 其 余弦 相似 度 较 高 ， 表 明 ChatGPT 生成 的 摘要 文本 存在 “形似 ”而 不 “神似 ”的 现象 。 
在 三 个 二 级 学 科 领 域 上 ， 情 报 学 的 评分 最 高 ， 档 案 学 的 评分 最 低 ， 表 明 档 案 学 领域 ChatGPT 


和 


T 


生成 摘要 文本 与 学 者 撰写 的 摘要 文本 差异 更 大 。 

本 文 还 存在 一 些 不 足 ， 受 当前 ChatGPT 调用 接口 的 影响 ， 本 文采 用 了 基于 GPT-3.5 的 
ChatGPT 来 生成 对 应 的 摘要 文本 ， 而 未 采用 最 新 的 GPT-4 模型 。 且 当前 的 ChatGPT 在 输入 
字符 数 上 有 诸多 限制 ， 未 来 将 从 引言 、 正 文 、 结 论 等 部 分 进行 研究 ， 以 期 更 为 全 面 地 分 析 二 
者 之 间 的 差异 。 此 外 ,本 文 目 前 仅 以 信息 资源 管理 领域 的 中 文学 术 论文 为 研究 对 象 ,在 未 来 
的 研究 中 将 考虑 对 不 同学 科 领 域 的 论文 进行 对 比分 析 。 
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Comparative Study on ChatGPT Generation and Scholars Writing of Literature Abstracts: 
Taking the Field of Information Resource Management as an Example 

Zhang Qiang!, Wang Xiaoran?, Gao Ying!, Zhou Hong?* 
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of Computer and Information, Anhui Polytechnic University, Wuhu 241000; 3. Department of 
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Abstract: [Purpose/Significance] Explore the similarities and differences between ChatGPT 
generation and Chinese paper abstracts written by scholars, and analyze the differences in content 
characteristics between the two, providing reference for AI generated academic paper detection 
and related research. [Method/Process] Firstly, taking the field of information resource 
management as an example, we extracted 500 highly cited papers from library science, 
information science, and archival science in the past three years. Based on the obtained paper titles, 
we used the Prompt method to apply the ChatGPT tool to generate corresponding abstract texts 
and construct a dataset; Secondly, 9 machine learning and deep learning algorithms were used to 
classify and detect abstract texts generated by ChatGPT and written by scholars; Finally, analyze 
the similarities and differences between the two from multiple perspectives, including text features, 
topic models, and ROUGE evaluation, in order to reveal the similarities and differences between 
the two. [Result/Conclusion] Mainstream machine learning and deep learning algorithms trained 
on datasets can effectively distinguish whether abstracts are generated by AI or written by scholars, 
with BERT and ERNIE performing the best, while RF and Xgboost perform the best among 
machine learning algorithms. The number of abstract characters and sentences generated by 
ChatGPT is higher than that written by scholars, and the keywords are mostly template based 
transitional words; The themes of the two texts are mostly the same, but there are differences in 
themes such as "disciplinary system" and "digital humanities"; The quantitative analysis of 
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ROUGE and cosine similarity indicates that the abstracts generated by ChatGPT have a significant 
"resemblance" rather than a "resemblance" to the abstract texts written by scholars. 
Keywords: ChatGPT Text classification Text features Paper abstract 


